
Artículo científico
Datos
- Datos tomados del artículo referenciado previamente.
- Fuente de datos
- En la base de datos se tienen dos grupos bajo análisis:
- Grupo Long jumpers: id 1 a 23.
- Grupo untrained men: id 24-45.
Objetivos
- Replicar análisis estadísticos aplicados en el artículo científico de interés.
- Evidenciar la relación existente entre características anatómicas de atletas vs rendimiento en salto largo.
- Evaluar otros métodos de statistical learning y compararlos con los resultados obtenidos por los autores.
Resultados adicionales con R
Distribuciones
datos %>%
select_if(is.numeric) %>%
select(-id) %>%
gather(key = "variable", value = "valor") %>%
ggplot(data = ., aes(x = valor)) +
facet_wrap(facets = ~variable, scales = "free", ncol = 4) +
geom_histogram(aes(y = ..density..), bins = 10, color = "black",
fill = "gray60") +
geom_density(fill = "gray50", alpha = 0.18) +
geom_rug() +
labs(x = "", y = "Densidad") +
theme_light() +
theme(strip.background = element_rect(fill = "deepskyblue4"),
strip.text = element_text(color = "black"))

Gráficos cuantil cuantil

Comparativos
- Se comparan registros de cross-sectional area (CSA) de la pierna de despeque (takeoff) vs la pierna libre (free). Las variables (músculos) a comparar son las siguientes:
- RA: recto abdominal.
- OB: oblicuos internos y externos.
- PM: psoas mayor.
- QL: cuadrado lumbar.
- ES: erector spinae.
- Gmax: gluteo mayor.
- Gmed: gluteos medio y mínimo.
- IL: iliaco
df_takeoff_leg <- datos %>%
select(RA_takeof_leg:IL_takeof_leg) %>%
gather(key = "variable", value = "valor") %>%
mutate(tipo = "TakeoffLeg")
df_free_leg <- datos %>%
select(RA_free_leg:IL_free_leg) %>%
gather(key = "variable", value = "valor") %>%
mutate(tipo = "FreeLeg")
df_takeoff_free <- df_takeoff_leg %>%
bind_rows(df_free_leg)
df_takeoff_free %>%
separate(col = variable, into = c("variable", "v1", "v2")) %>%
select(-c(v1, v2)) %>%
ggplot(data = ., aes(x = tipo, y = valor, fill = tipo)) +
facet_wrap(facets = ~variable, scales = "free", ncol = 4) +
geom_boxplot(color = "black") +
scale_fill_manual(values = c("darkgreen", "gold4")) +
labs(x = "Tipo de pierna", y = "") +
theme_light() +
theme(strip.background = element_rect(fill = "deepskyblue4"),
strip.text = element_text(color = "black"),
legend.position = "none")

Shapiro Wilk
Se comprueba la normalidad de las variables (\(\alpha = 0.05\)), bajo el siguiente juego de hipótesis:
\[H_0: X \sim N(\mu, \sigma^2)\\
H1: x \nsim N(\mu, \sigma^2)\]
Matriz de correlaciones
- Se construye la matriz de correlaciones (método de *Pearson).
- La variable que presente mayor correlación lineal con la longitud del salto, será tenida en cuenta para estructurar el modelo de regresión lineal simple (RLS). Con las demás variables se construye el modelo de regresión lineal múltiple (RLM).
- Para la construcción del modelo de RLM se comprueba la multicolinealidad de las variables y se proponen dos alternativas:
---
title: "Análisis de Regresión con R"
subtitle: "Comparación de modelos de regresión con R"
author: "Edimer David Jaramillo"
output:
  html_notebook:
    css: css/estilo.css
    theme: cosmo
    highlight: zenburn
    df_print: paged
    code_folding: hide
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE,
                      warning = FALSE,
                      error = FALSE,
                      message = FALSE,
                      fig.align = "center",
                      fig.width = 8.5,
                      fig.height = 5,
                      collapse = TRUE)
```

<img src="img/science.png" style="position:absolute;top:0px;right:30px; width:150px" />

# Artículo científico

<center>
<img src = "img/paper.png" />
</center>

# Datos

- Datos tomados del artículo referenciado previamente.
- [Fuente de datos](https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0225413#pone-0225413-g001)
- En la base de datos se tienen dos grupos bajo análisis:
    - **Grupo *Long jumpers*:** id 1 a 23.
    - **Grupo *untrained men*:** id 24-45.

# Lectura de datos

```{r}
library(readxl)
library(tidyverse)
datos <- read_xlsx("../data/Data_Paper_Plos_One_Muscle.xlsx", skip = 3,
                   na = "N/A", n_max = 47) %>% 
  rename(RA_takeof_leg = RA...7,
         OB_takeof_leg = OB...8,
         PM_takeof_leg = PM...9,
         QL_takeof_leg = QL...10,
         ES_takeof_leg = ES...11,
         Gmax_takeof_leg = Gmax...12,
         Gmed_takeof_leg = Gmed...13,
         IL_takeof_leg = IL...14,
         RA_free_leg = RA...15,
         OB_free_leg = OB...16,
         PM_free_leg = PM...17,
         QL_free_leg = QL...18,
         ES_free_leg = ES...19,
         Gmax_free_leg = Gmax...20,
         Gmed_free_leg = Gmed...21,
         IL_free_leg = IL...22,
         id = ID,
         edad = `Age (years)`,
         altura_cm = `Height (cm)`,
         imc = `Body mass (kg)`,
         dist_salto_cm = `long jump distance (cm)`,
         sprint_100m_seconds = `100-m sprint time (s)`,
         grasa_subcut_cm2 = `Subcutaneous fat CSA (absolute value, cm2)`) %>% 
  mutate(type = if_else(id %in% c(1:23), true = "Long jumpers",
                        false = "Untrained men"))
datos
```

# Objetivos

- Replicar análisis estadísticos aplicados en el artículo científico de interés.
- Evidenciar la relación existente entre características anatómicas de atletas vs rendimiento en salto largo.
- Evaluar otros métodos de [*statistical learning*](https://edimer.github.io/documents_R/LinearModels_LeastSquares/LinearModels_LeastSqauares.html#1) y compararlos con los resultados obtenidos por los autores.

# Resultados del *paper* 

## Correlaciones 

- Aunque fueron numerosos los resultados obtenidos por los autores, para el objetivo de este documento se destacan los siguientes:
    - La relación entre el área transversal relativa (CSA) del recto abdominal (AR) del lado de la pierna de despegue y el mejor registro personal para el salto largo.
        - **Correlación:** 0.674
        - **Valor p:** 0.004 (estadísticamente significativo)

- Las correlaciones (con intervalo de confianza del 95%) se presentan en la siguiente tabla:

<center>
<img src = "img/correlations.png"/>
</center>

## Gráfico de dispersión {.tabset .tabset-fade .tabset-pills}

### Original

<center>
<img src = "img/paper2.png" width="400" />
</center>

### Réplica con R

```{r}
library(ggplot2)
datos %>% 
  ggplot(data = ., aes(x = RA_takeof_leg, y = dist_salto_cm)) +
  geom_point(size = 3) +
  labs(x = expression('Relative CSA of RA takeoff leg side - cm'^"2"/'kg'^"2/3"),
       y = "Personal best record of long jump (cm)") +
  geom_smooth(method = "lm", se = FALSE, lty = 3, lwd = 1, color = "black") +
  theme_light()
```

## Predichos vs Reales (*paper*)

<center>
<img src = "img/paper3.png" width="400" />
</center>

# Resultados adicionales con R

## Distribuciones

```{r, fig.height=10}
datos %>% 
  select_if(is.numeric) %>% 
  select(-id) %>% 
  gather(key = "variable", value = "valor") %>% 
  ggplot(data = ., aes(x = valor)) +
  facet_wrap(facets = ~variable, scales = "free", ncol = 4) +
  geom_histogram(aes(y = ..density..), bins = 10, color = "black", 
                 fill = "gray60") +
  geom_density(fill = "gray50", alpha = 0.18) +
  geom_rug() +
  labs(x = "", y = "Densidad") +
  theme_light() +
  theme(strip.background = element_rect(fill = "deepskyblue4"),
        strip.text = element_text(color = "black"))
```

## Gráficos cuantil cuantil

```{r, fig.height=10, fig.align="center"}
library(qqplotr)
datos %>% 
  select_if(is.numeric) %>% 
  select(-id) %>% 
  gather(key = "variable", value = "valor") %>% 
  ggplot(data = ., aes(sample = valor)) +
  facet_wrap(facets = ~variable, scales = "free", ncol = 4) +
  geom_qq_band(fill = "gray25") +
  stat_qq_line(color = "darkgreen") +
  stat_qq_point(color = "black", size = 0.8) +
  labs(x = "Cuantiles teóricos", y = "Cuantiles muestrales") +
  theme_light() +
  theme(strip.background = element_rect(fill = "deepskyblue4"),
        strip.text = element_text(color = "black"))
```

## Comparativos

- Se comparan registros  de *cross-sectional area (CSA)* de la pierna de despeque (*takeoff*) vs la pierna libre (*free*). Las variables (músculos) a comparar son las siguientes:
    - **RA:** recto abdominal.
    - **OB:** oblicuos internos y externos.
    - **PM:** psoas mayor.
    - **QL:** cuadrado lumbar.
    - **ES:** erector *spinae*.
    - **Gmax:** gluteo mayor.
    - **Gmed:** gluteos medio y mínimo.
    - **IL:** iliaco

```{r, fig.height=5.5}
df_takeoff_leg <- datos %>% 
  select(RA_takeof_leg:IL_takeof_leg) %>% 
  gather(key = "variable", value = "valor") %>% 
  mutate(tipo = "TakeoffLeg")

df_free_leg <- datos %>% 
  select(RA_free_leg:IL_free_leg) %>% 
  gather(key = "variable", value = "valor") %>% 
  mutate(tipo = "FreeLeg")

df_takeoff_free <- df_takeoff_leg %>% 
  bind_rows(df_free_leg)

df_takeoff_free %>% 
  separate(col = variable, into = c("variable", "v1", "v2")) %>% 
  select(-c(v1, v2))  %>% 
  ggplot(data = ., aes(x = tipo, y = valor, fill = tipo)) +
  facet_wrap(facets = ~variable, scales = "free", ncol = 4) +
  geom_boxplot(color = "black") +
  scale_fill_manual(values = c("darkgreen", "gold4")) +
  labs(x = "Tipo de pierna", y = "") +
  theme_light() +
  theme(strip.background = element_rect(fill = "deepskyblue4"),
        strip.text = element_text(color = "black"),
        legend.position = "none")
```

## Shapiro Wilk

Se comprueba la normalidad de las variables ($\alpha = 0.05$), bajo el siguiente juego de hipótesis:

$$H_0: X \sim N(\mu, \sigma^2)\\
H1: x \nsim N(\mu, \sigma^2)$$

```{r}
datos %>% 
  select_if(is.numeric) %>% 
  select(-id) %>% 
  gather(key = "variable", value = "valor") %>% 
  group_by(variable) %>% 
  summarise(valor = list(valor)) %>% 
  ungroup() %>% 
  group_by(variable) %>% 
  mutate(shapiro_valorP = shapiro.test(unlist(valor))$p.value)
```
    
## Matriz de correlaciones

- Se construye la matriz de correlaciones (método de *Pearson).
- La variable que presente mayor correlación lineal con la longitud del salto, será tenida en cuenta para estructurar el *modelo de regresión lineal simple (RLS)*. Con las demás variables se construye el *modelo de regresión lineal múltiple (RLM)*.
- Para la construcción del modelo de *RLM* se comprueba la multicolinealidad de las variables y se proponen dos alternativas:
    - Eliminación de variables por [*factor inflacionario de varianza.*](https://es.wikipedia.org/wiki/Factor_de_inflaci%C3%B3n_de_la_varianza)
    - Regresión por componentes principales. 